@喻快等:《基于强化学习的古今汉语句子对齐研究》

强化学习

摘要

在传统双语平行语料的句子对齐研究中,传统方法根据双语文本中的长度、词汇、共现文字等特征信息建立综合评判标准来衡量两个句对的相似度。此类方法对句子语义匹配的能力有限,并且在多对多的对齐模式上表现不佳。
该文利用具有强大语义能力的预训练语言模型,并基于动态规划算法的强化学习训练目标来整合段落全局信息,进行无监督训练。实验结果证明,使用该方法训练得到的模型性能优于此前获得最好表现的基线模型,特别是在多对多对齐模式下,性能提升显著。

1. 背景

2. 任务和数据

3. 详细方法

Pasted image 20250313162518.png

基于预训练语言模型的语义匹配模块

x(1)=x1(1)+x2(1)+...+xn(1)$$

x^{(2)} = x^{(2)}_1 + x^{(2)}_2 + ... + x^{(2)}_m

X = \text{[CLS]} \ x^{(1)}_1 \ x^{(1)}_2 \ ... \ x^{(1)}_n \ \text{[SEP]} \ x^{(2)}_1 \ x^{(2)}_2 \ ... \ x^{(2)}_n \ \text{[SEP]}
$$

#### 基于动态规划的强化学习序列决策模块 * 状态转移方程: $$D(i,j) = \max \left\{ \array{ D(i-1,j-1) + \text{Reward}(\text{BERT}(s_i, t_j)) \\ D(i-1,j-2) + \text{Reward}(\text{BERT}(s_i, t_j \oplus t_{j-1})) \\ D(i-2,j-1) + \text{Reward}(\text{BERT}(s_i \oplus s_{i-1}, t_j)) \\ D(i-2,j-2) + \text{Reward}(\text{BERT}(s_i \oplus s_{i-1}, t_j \oplus t_{j-1})) } \right\}
补充伪标注生成过程

假设古文段落有 3 句(A-B-C),现代文段落有 4 句(1-2-3-4),目标是找到所有句子的对应关系。

真实标注(理想情况)

A ↔ 1  
B ↔ 2  
C ↔ 3-4(1-2对齐模式)

伪标注生成过程

  1. 动态规划初始化

    • 构建得分矩阵 D[i][j],表示古文前 i 句和现代文前 j 句的最佳对齐得分。
    • 初始化:D[0][0] = 0(起点)。
  2. 逐句匹配得分计算

    • 对每个位置 (i,j),计算四种可能对齐方式的得分:
      • 1-1 对齐D[i-1][j-1] + 语义匹配分(Ai, Bj)
      • 1-2 对齐D[i-1][j-2] + 语义匹配分(Ai, Bj-1+Bj)
      • 2-1 对齐D[i-2][j-1] + 语义匹配分(Ai-1+Ai, Bj)
      • 2-2 对齐D[i-2][j-2] + 语义匹配分(Ai-1+Ai, Bj-1+Bj)
    • 语义匹配分由预训练模型(如 BERT)给出,例如:
      BERT("A", "1") → 0.9  
      BERT("B", "2") → 0.8  
      BERT("C", "3-4") → 0.7
      
  3. 选择最优路径

    • 动态规划矩阵逐步填充,最终得到全局最优路径:
      A-1 → B-2 → C-3-4  
      总得分 = 0.9 + 0.8 + 0.7 = 2.4
      
    • 伪标注生成:将路径中的对齐关系(A-1, B-2, C-3-4)作为伪标签。
  4. 加上奖励
    假设古文段落为 A-B,现代文段落为 1-2-3
    动态规划路径选择

  • 路径1A-1(1-1)→ B-2-3(1-2)
    • 若BERT判断A-1匹配(概率0.9),奖励+2;B-2-3匹配(概率0.8),奖励+3。
    • 总奖励:2 + 3 = 5
  • 路径2A-B(2-2)→ 1-2-3(2-3,超出范围)
    • 若BERT判断A-B-1-2匹配失败,奖励为0。
      结果:动态规划选择路径1,奖励更高且覆盖更多句子。

策略梯度训练

pθ(τ)=p(s1)t=1Tpθ(atst)p(st+1st,at) Rθ=τR(τ)ϕθ(τ) Rθ=1Nn=1Nt=1TnR(τn)logϕθ(atnstn) θθ+ηRθ

策略网络初始化

Rθ=1Nn=1Nt=1Tn(R(τn)b)logϕθ(atnstn)

4. 实验

Precision=GBPBPBRecall=|GBPB||GB|

Pasted image 20250313195411.png

Pasted image 20250313195433.png

5. 结果

6. 结论

本文提出的基于预训练语言模型和强化学习的古今汉语句子对齐方法,能够有效提升对齐性能,特别是在多对多对齐模式下。该方法为解决古今翻译场景下平行语料匮乏问题提供了一种新的思路。